[livres divers classés par sujet] [Informatique] [Algorithmique] [Programmation] [Mathématiques] [Hardware] [Robotique] [Langage] [Intelligence artificielle] [Réseaux]
[Bases de données] [Télécommunications] [Chimie] [Médecine] [Astronomie] [Astrophysique] [Films scientifiques] [Histoire] [Géographie] [Littérature]

Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora

creator Austinat, Holger
date 1998-07-28
description 79 pages
Diese Studienarbeit untersucht Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora. Es wird von Texten in der Größenordnung von einigen Millionen Worten ausgegangen, die parallel in Deutsch und Englisch (und z.T. in weiteren Sprachen) vorliegen. Diese Texte sind bereits für die Verwendung der IMS-Corpus-Tools aufbereitet und auf der Ebene von Sätzen bzw. vergleichbarer Einheiten zugeordnet. Für diese Texte soll eine Zuordnung auf Wortebene oder auf der Ebene kleiner syntaktischer Einheiten (z.B. Nominalphrasen) hergestellt werden. Dabei sollen Informationen über bereits bekannte Wortpaare, Wortartmarkierungen, morphologische Analysen sowie heuristische Informationsquellen verwendet werden, um die Zuordnung möglichst genau zu machen. Ergebnis dieser Zuordnung ist die Rohform eines bilingualen Lexikons, das jedoch noch eine beträchtliche Menge an falschen Übersetzungshypothesen enthält. Es sollen Methoden untersucht werden, die Qualität des Ergebnisses abzuschätzen (precision, recall), ohne alle Hypothesen einzeln von Hand beurteilen zu müssen.
format application/postscript
837064 Bytes
identifier  http://www.informatik.uni-stuttgart.de/cgi-bin/NCSTRL/NCSTRL_view.pl?id=STUD-1704&engl=1
language ger
publisher Stuttgart, Germany, Universität Stuttgart
relation Student Thesis No. 1704
source ftp://ftp.informatik.uni-stuttgart.de/pub/library/medoc.ustuttgart_fi/STUD-1704/STUD-1704.ps
subject Content Analysis and Indexing (CR H.3.1)
Natural Language Processing (CR I.2.7)
Parallelkorpora
automatische Lexikonerstellung
bilinguales Lexikon
Precision
Recall
title Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora
type Text
Student Thesis